论文推荐|[ AAAI2021] HiGAN:基于变长文本和解耦风格的手写数据合成方法（有源码）

Original 马继钊 CSIG文档图像分析与识别专委会 2022-07-11

本文简要介绍AAAI2021录用论文"HiGAN: Handwriting imitation conditioned on arbitrary-length texts and disentangled styles"。该论文提出了一种新颖的手写模仿生成对抗网络(HiGAN)，可以根据任意文本内容生成长度可变的手写单词或文本行，并可以灵活控制生成图像的书写风格。

图1 人类可以借助想象很容易地学会笔迹模仿

一、研究背景

通常，手写文字模仿任务有两方面的要求：(1)根据任意文本内容，合成多样化、逼真的书法图像; (2)模仿参考笔迹样本的书法风格(如文字歪斜、倾斜、圆度、连体、笔划宽度)。

如图1所示，人类可以通过想象快速学会这种手写模仿。具体地说，给出某种手写体的有限样本，人类可以很容易地从样本中模仿出书写风格，并通过想象将这种书写风格迁移到其它的单词或者文本行上。人类能做到这种想象，也许是因为人类能从给定的手写样本中解耦出书写风格和文本内容。

如果我们能教会计算机模仿这一过程，它们可能就能像人类一样模仿真实的笔迹。所以，这篇论文提出了一种新颖的手写模仿生成对抗网络(HiGAN)，该模型可以根据任意文本内容生成长度可变的手写单词或文本行，并可以灵活控制生成图像的书写风格。

二、方法原理简述

该文模型主要由五个模块组成：

（1）可输出变长图像的生成器G，该模块可以根据任意文本内容生成变长的手写笔迹图片，并利用条件批归一化（CBN）将整张图片渲染为统一的书写风格；

（2）鉴别器D，该模块用以鉴别真实图片和合成的假图；

（3）风格编码器E，该模块可以从参考样本图片x中解耦出手写风格s，并且不需要显式地访问书写者ID；

（4）书写者识别器I，该模块用以区分笔迹图片属于哪个书写者，该识别器只能对训练集中的可见书写者的笔迹图像进行分类，而不能在测试时识别不可见书写者的笔迹。因此该识别器只在训练时使用，测试时被丢弃；

（5）文本内容识别器R，该识别器是一个预训练的文本识别器，它可以从输入的手写图像中预测出图像中包含的文本内容。由于训练数据只具有有限的语义信息，而本文任务中的输入文本是一个开放的语言域，所以作者将该识别器中包含原训练数据语义信息的RNN部分去掉。这可以阻止该识别器学习到一个被训练集限制的隐式语言模型，并有利于OOV词语的生成。

图2展示了HiGAN的结构及其训练和测试的过程，具体如下：

图2 HiGAN整体结构及训练和测试过程

HiGAN的训练需要一个笔迹图像的集合X，笔迹图像对应的文本标签集合Y，以及相对应的书写者ID集合W。HiGAN的训练过程包括两个部分：（a）从真实样本x中解耦出风格s，并生成和真实图像难以区分的假图象；（b）在一个先验分布中随机抽取风格s来生成不同风格的手写图像。这两种不同的训练方法可以得到两种不同的对抗损失：

训练过程中总体的对抗损失是两个对抗损失之和：

当最大化对抗损失时，对鉴别器D、文本内容识别器R、书写者识别器I进行优化：

当最小化对抗损失时，固定鉴别器D、文本内容识别器R、书写者识别器I的参数，对生成器G和风格编码器E进行优化：

其中λ控制不同损失函数的权重，所有的模块都是以端到端的方式从头开始训练。

三、主要实验结果及可视化结果

表1 生成效果定量比较结果

表2 HiGAN合成数据对于识别任务的提升效果

从表1的实验结果可以看出，HiGAN在生成图像视觉质量和模型规模两个方面都明显优于其他基于GAN的方法。表2所示结果证明了使用HiGAN的合成数据补充手写识别任务的训练集，可以提升识别器的性能。

图3 随机风格合成：合成图像的风格是从先验正态分布中随机采样的

图4 参考风格合成：不同合成图像的风格是从参考样本图像中解耦出来的

图5 风格插值实验可视化结果

图6 手写文本内容编辑实验：从“Happy”到“Abcde”

每次只改变一个字母，并严格保留其书写风格

图3展示了HiGAN使用随即采样风格进行生成的可视化结果，可以看到HiGAN能够在字母之间产生自然的连笔。图4所示结果证明HiGAN成功得模仿了参考样本的书法风格。在图5所示风格插值实验中，可以看到手写图像在插值的条件下不断改变其书写风格，而文本内容保持严格不变。此实验证明了HiGAN具有在风格空间中的泛化能力，而不是记忆一些简单的视觉信息。与风格插值实验相对应，图6所示的文本编辑实验中，插值是在文本空间进行的，当每个词逐字母变化时，其书写风格保持严格不变，证明了HiGAN在文本空间中的泛化能力，并能够生成高质量的OOV单词。

四、总结和讨论

本文提出了一种新的手写模仿模型HiGAN。该模型可以根据任意文本内容生成多样化的、真实的手写图像，而不受任何预定义语料库和OOV单词的限制。HiGAN还可以从参考样本中提取书写风格，并灵活控制合成图像的书写风格。此外，作者还发现，HiGAN的合成数据可以用于补充数据集，从而提高手写识别任务的表现。

无论是定性的还是定量的比较，都证实了HiGAN在视觉质量和可扩展性方面优于竞争的GANs。然而，人类的笔迹风格是非常随意的，因此HiGAN在合成有意义的笔迹图像上确实存在局限。在未来的工作中，作者还计划进一步提高HiGAN生成图像的多样性和视觉质量。

五、相关资源

HiGAN论文地址：
https://www.aaai.org/AAAI21Papers/AAAI-4279.GanJ.pdf
HiGAN开源代码地址：https://github.com/ganji15/HiGAN

参考文献

[1] Achint Oommen Thomas, A. R.; and Govindaraju, V. 2009. Synthetic handwritten CAPTCHAs. Pattern Recognition 42(12): 3365–3373.

[2] Alec Radford, Luke Metz, S. C. 2013. Unsupervised representation learning with deep convolutional generative adversarial networks. In arXiv preprint arXiv:1511.06434.

[3] Sharon Fogel, Hadar Averbuch-Elor, S. C. S. M.; and Litman, R. 2020. ScrabbleGAN: Semi-supervised varying length handwritten text generation. In Proceedings of the IEEEConference on Computer Vision and Pattern Recognition, 4324–4333.

[4] Marti, Z.-V.; and Bunke, H. 2002. The IAM-database: an English sentence database for offlfline handwriting recognition. International Journal on Document Analysis and Recognition 5(1): 39–46.

[5] Baoguang Shi, X. B.; and Yao, C. 2016. An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence 39(11): 2298–2304.

[6] Bo Chang, Qiong Zhang, S. P.; and Meng, L. 2018. Generating handwritten Chinese characters using CycleGAN. In Proceedings of the IEEE Winter Conference on Applications of Computer Vision.

[7] Christian Szegedy, Vincent Vanhoucke, S. I. J. S.; and Wojna, Z. 2016. Rethinking the Inception Architecture for Computer Vision. In Proceedings of the IEEE conference on computer vision and pattern recognition, 2818–2826.

[8] Eloi Alonso, B. M.; and Messina, R. 2019. Adversarial generation of handwritten text images conditioned on sequences. In International Conference on Document Analysis and Recognition, 481–486.

[9] Florian Kleber, Stefan Fiel, M. D.; and Sablatnig., R. 2013. Cvl-database: An offlfline database for writer retrieval, writer identifification and word spotting. In International Conference on Document Analysis and Recognition, 560–564.

[10] Graves, A. 2013. Generating sequences with recurrent neural networks. In arXiv preprint arXiv:1308.0850.

[11] Harm de Vries, Florian Strub, J. M. H. L. O. P.; and Courville, A. C. 2017. Modulating early visual processing by language. In Advances in Neural Information Processing Systems, 6594–6604.

[12] Hsin-Ying Lee, Hung-Yu Tseng, J.-B. H. M. S.; and Yang, M.-H. 2018. Diverse image-to-image translation via disentangled representations. In Proceedings of the European conference on computer vision, 35–51.

[13] Lei Kang, Pau Rib, Y. M. R.-A. F. M. V. 2020. GANwriting:Content-conditioned generation of styled handwritten word images. In Proceedings of the European conference on computer vision.

原文作者： Ji Gan, Weiqiang Wang
撰稿：马继钊编排：高学

审校：殷飞

发布：金连文

免责声明：（1）本文仅代表撰稿者观点，撰稿者不一定是原文作者，其个人理解及总结不一定准确及全面，论文完整思想及论点应以原论文为准。（2）本文观点不代表本公众号立场。

往期精彩内容回顾

欢迎加入中国图象图形学学会!（附入会攻略）

征稿启事：本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果，欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布。

扫描二维码，关注我们:

万年县委书记毛奇案，又有新消息！

三联，刺痛了多少中国人

六大火药桶：世界种种动荡背后的历史逻辑

官媒消息！94.6元充100元话费，电费96.9充100元！招团长~

中介费比税还贵，贝壳赚钱太狠了

论文推荐|[ AAAI2021] HiGAN:基于变长文本和解耦风格的手写数据合成方法（有源码）

欢迎加入中国图象图形学学会!（附入会攻略）

您可能也对以下帖子感兴趣

万年县委书记毛奇案，又有新消息！

三联，刺痛了多少中国人

六大火药桶：世界种种动荡背后的历史逻辑

官媒消息！94.6元充100元话费，电费96.9充100元！招团长~

中介费比税还贵，贝壳赚钱太狠了

生成图片，分享到微信朋友圈

论文推荐|[ AAAI2021] HiGAN:基于变长文本和解耦风格的手写数据合成方法（有源码）

欢迎加入中国图象图形学学会!（附入会攻略）

您可能也对以下帖子感兴趣